Práctica de Análisis multivariante PCA & FA

Introducción

Se ha elegido para este ejercicio las estadísticas de bateo de las Grandes Ligas de Béisbol de los Estados Unidos, utilizando los datos de jugadores de todos los tiempos. Se ha obtenido la información en su sitio oficial [https://www.mlb.com/es/].

Sobre el Béisbol

El béisbol (del inglés: baseball), es un deporte de equipo jugado entre dos grupos de nueve jugadores cada uno. Los países considerados potencias de este deporte se encuentran concentrados en América (Norte, Central, Caribe) y en Asia. Europa cuenta con dos buenos exponentes (Países Bajos e Italia); y en África destaca la selección de Sudáfrica.

Objetivo del juego: conseguir más carreras que el rival. Básicamente se trata de que un equipo de bateadores/corredores, golpee o batee (hitting) la pelota de béisbol, de manera que esto les permita avanzar sobre las bases, hasta completar una carrera antes de que el equipo al campo tome la bola. El lanzador (del equipo contrario) dispone de cuatro posibles lanzamientos, que, de resultar erróneos, permitirían al bateador/corredor avanzar a primera base, mientras que el bateador/corredor dispone de tres intentos para batear (strike), antes de ser eliminado.

Posiciones de los jugadores en el terreno de juego

A continuación, se dejan dos links a videos con la explicación de los conceptos más generales de este bello deporte: * [https://www.youtube.com/watch?v=bSZ-Ww4G_MY] * [https://www.youtube.com/watch?v=skOsApsF0jQ]

Sobre Las Ligas Mayores de Béisbol (MLB)

Las Ligas Mayores de Béisbol (en inglés Major League Baseball o MLB) son las ligas de béisbol profesional de mayor nivel de los Estados Unidos. Actualmente la MLB cuenta con 30 equipos repartidos en la Liga Nacional y la Liga Americana, fundadas en 1876 y 1901 respectivamente. En 2000 las dos ligas se fusionaron legalmente en la MLB.

Sobre el dataset

El dataset consta de 18 variables, que serán explicadas a continuación, y 934 registros, cada una de los cuales hace referencia a un jugador.

Variable Significado Descripción
PLAYER Jugador Nombre del jugador
POS Posición Posición del jugador en el terreno
G Games / Juegos Número de juegos en los que el jugador participa
AB At Bat / Al bate Número de veces al bate, excluyendo sacrificios, bases por bola, o golpeado por el lanzador
R Runs / Carreras Número de veces que el bateador pasa por todas las bases y llega a homeplate sin ser out
H Hits Número de veces que el jugador batea la bola y alcanza primera base sin quedar out
2B two-base / Doble Número de veces que el jugador batea la bola y alcanza segunda base sin quedar out
3B three-base hit / Triple Número de veces que el jugador batea la bola y alcanza tercera base sin quedar out
HR Home run Número de veces que el jugador batea la bola y recorre todas las bases ya sea con la bola dentro o fuera del campo
RBI Run Batted In / Carreras Impulsadas número de veces que un jugador permite carreras anotadas de otros jugadores en bases o incluso él mismo si llega a homeplate
BB Bases por Bola Número de veces que el bateador recibe base por bolas (tras 4 bolas fuera de la zona de strike en un turno al bate)
SO Strike Out o Out Tres strikes en un turno al bate
SB Stolen Base / Bases Robadas Número de veces que un jugador pasa de una base a otra sin que lo tomen out
CS Caught Steeling / Atrapado Robando Número de veces que un jugador es puesto out en un intento de robo de base
AVG Average / Promedio de bateo Indica el porcentaje entre la cantidad de hits y el número de turnos al bate: AVG=H/AB. Se considera un buen average a partir de los .300
OBP On Base Percetage / Porcentaje de embasarse Porciento que da una medida de la capacidad del bateador para llegar a alguna base. Calcula la relación entre (H+BB+HBP)/(AB+BB+HBP+SF) donde HBP (Hit By Pitch) es la cantidad de veces que el bateador es golpeado por el lanzador y SF (Sacrifice Fly) es la cantidad de veces que un jugador batea una bola elevada que eventualmente será out pero que sirve para que otro jugador adelante una base. Un buen OBP es de .333
SLG Slugging Percetage Medida del poder del bateador. Representa el porcentaje de los turnos al bate con respecto a las bases alcanzadas. Se divide la cantidad total de bases recorridas (TB) por las veces al bate. El slugging otorga más peso a los extrabases, es decir, se asigna uno por cada sencillo (1B), dos por cada doble (2B), tres por cada triple (3B) y cuatro por cada home run (HR). Las fórmulas para el cálculo son: Se TB=(1B)+(2x2B)+(3x3B)+(4xHR) y SLG=TB/AB, Se considera un buen slugging a partir de los .500
OPS On-base percentage plus slugging Mide la contribución total de un jugador, toma en cuenta su poder y su capacidad de embasarse. Su fórmula es OPS=OBP+SLG. Un buen OPS debe ser de .753

Nota: Las variables: H, 2B, 3B y HR, indican el performance más general del bateador, cuánto batea y su capacidad de alcanzar alguna base.

Análisis exploratorio

Se realiza un análisis exploratorio de los datos. Se asegura que todas las variables del dataset sean numéricas exceptuando las dos primeras que almacenan el nombre de jugador y su posición en el terreno, que serán categóricas. Adicionalmente a esto, se realiza un tratamiento para los missing values en el dataset.

Dataset

Se visualiza la tabla de datos con información adicionada:

  • Variables atómicas: Se agrega una barra a cada celda que represanta el porcentaje con respecto al total para cada registro.

  • Variables calculadas: Se colorea el background de la celda de rojo o verde, que representa qué tan bueno es un jugador con respecto a cada variable.

Análisis univariante

Estadísticos
G AB R H 2B 3B HR RBI BB SO SB CS AVG OBP SLG OPS
Mean 1762.91 6328.24 934.11 1776.83 311.75 61.54 163.22 856.93 656.90 775.74 154.65 48.37 0.28 0.35 0.42 0.77
Std.Dev 403.62 1553.69 315.87 509.34 105.34 42.03 132.39 341.73 302.86 459.11 150.62 41.54 0.02 0.03 0.06 0.08
Min 1121.00 4229.00 366.00 1051.00 100.00 3.00 2.00 267.00 161.00 0.00 2.00 0.00 0.22 0.26 0.26 0.54
Q1 1452.50 5105.00 707.00 1389.00 237.00 32.00 57.50 603.50 444.00 407.50 47.00 18.00 0.26 0.33 0.38 0.72
Median 1677.50 5920.00 863.50 1629.50 290.00 52.00 130.00 790.50 592.00 712.00 104.50 41.00 0.28 0.35 0.42 0.77
Q3 1989.00 7216.00 1099.00 2054.00 368.00 79.00 241.50 1041.00 809.00 1093.00 214.00 70.00 0.29 0.37 0.46 0.82
Max 3562.00 14053.00 2295.00 4256.00 792.00 309.00 762.00 2297.00 2558.00 2597.00 1406.00 335.00 0.37 0.48 0.69 1.16

Histogramas

En general curvas asimétricas, con excepción de las variables calculadas (AVG, OBP, SLG y OPS) que presentan una distribución más cercana a la distribución Normal.

Boxplots

Cajas generalmente bajas y bastantes outliers superiores en todas las variables. Estos outliers representan jugadores que destacan del resto y que por consiguiente son muy buenos en base al indicador o variable observada. Es importante tener en cuenta que las variables SO (Strike Out) y CS (Catch Stealing) tienen efecto inverso en realción a ganar el juego, es decir que a mayor valor de estas variables más negativas resultan.

Boxplots2

Las variables se encuentran rangos de valores muy diferentes, esto puede afectar al cálculo posterior de las componentes principales. Se necesitará estandarizar la matriz de datos.

Análisis bivariante

Se analiza el dataset para encontrar correlaciones por pares de variables utilizando un threshold de 0.9

Corración positiva
Variable1 Variable2 Coef_correlacion
AB (At Bat / Al bate) G (Games / Juegos) 0.957564207796422
H (Hits) AB (At Bat / Al bate) 0.962972853075029
OPS (On-base percentage plus slugging) SLG (Slugging Percetage) 0.953832760345534
Corración negativa
Variable1 Variable2
Empty Empty

Algunos insigths relevantes

¿Cómo batean los jugadores por posiciones?

Observaciones

Gráfica de Número de juegos (G) vs promedio de bateo (AVG). El color está representado por las posiciones del terreno (POS) y tamaño por Strike Outs (SO)

## `geom_smooth()` using formula 'y ~ x'

Las posiciones se muestran bastante parejas en respecto a cantidad de juegos, promedio de bateo y strike outs.

Nombres de jugadores
  • Misma gráfica pero mostrando el nombre de los jugadores.
    Los mejores jugadores con un AVG mayor que 350 son Joe.

¿Cómo impulsan por posiciones?

Los jugadores que batean en un momento decisivo del juego ayudando a que otros que estén en el campo logren obtener bases, son jugadores muy valiosos. En muchos casos hacen un bateo de “sacrificio” que implica que él pierde la posibilidad de llegar a primera base para que otro jugador pueda avanzar en el terreno. Esto es lo que almacena la variable RBI y vale la pena estudiarla.

Observaciones

La Gráfica muestra Carreras Impulsadas (RBI) contra los Strike Outs (SO). Se quiere observar la relación entre las veces que en la posición de bateo el jugador impulsa o se poncha. El color está representado por las posiciones del terreno (POS) y tamaño por veces al bate (AB).

## `geom_smooth()` using formula 'y ~ x'

Homogeneidad entre las posiciones. Relación lineal entre las variables pero con mucha dispersión. Las líneas de tendencia indican que los mejores en impulsadas son los bateadores designados (DH).

Nombres de jugadores

Relación de home runs y juegos

Observaciones
Nombres de jugadores

¿Cómo roban los bateadores las bases por posiciones?

Observaciones
Nombres de jugadores

¿Cuánto batea un jugador comparado con la cantidad de veces al bate?

Observaciones
Nombres de jugadores

Análisis multivariante

Análisis de componenes principales (PCA)

WORK IN PROGRESS

Análisis Discriminante

WORK IN PROGRESS